VIP STUDY сегодня – это учебный центр, репетиторы которого проводят консультации по написанию самостоятельных работ, таких как:
  • Дипломы
  • Курсовые
  • Рефераты
  • Отчеты по практике
  • Диссертации
Узнать цену
Главная / Рефераты / Системы индексирования

Системы индексирования

Система индексирования (СИ) совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения ПНЯ [29]. Рассмотрим классификацию систем индексирования |29]. 1. Но степени автоматизации процесса индексирования выделяют системы: • ручного индексирования; • автоматического индексирования; • автоматизированного индексирования. 2. По степени контролируемости различают системы: • без словаря; • с жестким словарем; • со свободным словарем. 3. По характеру алгоритма отбора слов текста выделяют системы: • с последовательным просмотром текста (отбираются все полнозначные слова); • с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре): • со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления). 4. По характеру лексикографического контроля различают системы: • без лексикографического контроля; • с полным контролем; • с промежуточным контролем. Лексикографический контроль предусматривает [29]: ¦ устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; ¦ нормализацию слов на основе морфологических нормативных словарей. 5. По характеру морфологического анализа слов различают системы: 165 ¦ с использованием морфологических словарей; ¦ с использованием основных лексических словарей; ¦ С использованием морфологического анализа с усечением слов. Возможны системы индексирования без морфологического анализа. Процесс свободного индексирования состоит в следующем. Индексатор выписывает слова или словосочетания, которые, по его мнению, отражают содержание текста. Он может брать слова, отсутствующие в тексте, но важные, с его точки зрения, для выражения смысла текста. Отобранный список слов является поисковым образом документа. Это СИ С ручным индексированием. Процесс полусвободного индексирования аналогичен вышеописанному, но слова для подберутся только из словаря. При жестком индексировании слова берутся только из текста. Поначалу индексирование осуществлялось специально подготовленными специалистами-экспертами в предметной области, которые МОГЛИ осуществлять глубокий анализ СМЫСЛОВОГО содержания документа и ОТНОСИТЬ его (индексировать) к тем или иным классам, рубрикам, ключевым терминам. В этом случае были высоки накладные расходы, поскольку требовалось наличие в штате высококвалифицированных специалистов-индексаторов. Кроме того, процесс индексирования в некоторой мере был субъективным. Поэтому возникла задача автоматизации индексирования документов. Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный (рис. 7.4) [14]. Прямой тип индекса строится по схеме «документ—термины». Поисковое пространство в ЭТОМ случае представлено в виде матрицы размерностью nxm. Строки этой матрицы представляют поисковые образы документов. Инвертированный тип индекса строится по обратной схеме — «термин—документы>. Поисковое пространство соответственно предетав-лено аналогичной матрицей, только в транспонированной форме. Поисковыми образами документов в ЭТОМ случае являются столбцы матрицы. 166 Прямой индекс Номер документа Термины f, t> f. t, U d, + + d2 +¦ + + d3 + + dt + f + Инвертированный индекс Термины Номера документов d d2 d, dt f, + + г, + + h + + t< + + и + + Рис. 7.4. Пример прямого и инвертированного индексов Второй подход к автоматическому индексированию применяется в полнотекстовых системах. В процессе индексирования в индекс заносится информация обо всех словах текста документа (отсюда и название «полнотекстовые»).

Каталог работ Узнать цену


Похожие рефераты:

Отзывы

Очень удобно то, что делают все "под ключ". Это лучшие репетиторы, которые помогут во всех учебных вопросах.

Далее
Узнать цену Вашем городе
Выбор города
Принимаем к оплате
Информация
Экспресс-оплата услуг

Если у Вас недостаточно времени для личного визита, то Вы можете оформить заказ через форму Бланк заявки, а оплатить наши услуги в салонах связи Евросеть, Связной и др., через любого кассира в любом городе РФ. Время зачисления платежа 5 минут! Также возможна онлайн оплата.

Рекламодателям и партнерам

Баннеры на нашем сайте – это реальный способ повысить объемы Ваших продаж.
Ежедневная аудитория наших общеобразовательных ресурсов составляет более 10000 человек. По вопросам размещения обращайтесь по контактному телефону в городе Москве 8 (495) 642-47-44